上下文压缩

首页

上下文压缩

FlexRAG

FlexRAG 是一个高效的检索增强生成（RAG）框架，通过压缩编码器和选择性压缩机制优化长上下文处理，提升计算效率与生成质量。支持多模态数据、多种检索器和多数据类型，适用于开放域问答、对话系统、文档摘要等知识密集型任务，具备灵活配置和可扩展性。

AI项目与工具 2025年06月12日 69 点赞 0 评论 733 浏览

APB是一种由清华大学等机构开发的分布式长上下文推理框架，通过稀疏注意力机制和序列并行推理提升大模型处理长文本的效率。采用更小的Anchor Block和Passing Block，结合查询感知的上下文压缩技术，减少计算开销并精准传递关键信息。在128K长度文本上，APB推理速度比Flash Attention快10倍，比Star Attention快1.6倍，适用于多种分布式环境和模型规模，广泛

AI项目与工具 2025年06月12日 64 点赞 0 评论 885 浏览

上下文压缩 首页 上下文压缩

列表 默认 浏览次数 发布日期

FlexRAG

APB

上下文压缩

首页

上下文压缩

列表

默认

浏览次数

发布日期